05. 评估数据
评估数据
在 Jupyter notebook 中使用 Pandas,探索
all_alpha_08.csv
和
all_alpha_18.csv
,以回答 notebook 下面有关这些数据集特征的练习问题:
- 每个数据集中的样本数
- 每个数据集中的列数
- 每个数据集中重复的行数
- 列的数据类型
- 具有缺失值的特征
- 每个数据集中特征的非空唯一值的数量
- 这些唯一值都是什么,以及每个的计数
Workspace
This section contains either a workspace (it can be a Jupyter Notebook workspace or an online code editor work space, etc.) and it cannot be automatically downloaded to be generated here. Please access the classroom with your account and manually download the workspace to your local machine. Note that for some courses, Udacity upload the workspace files onto https://github.com/udacity , so you may be able to download them there.
Workspace Information:
- Default file path:
- Workspace type: jupyter
- Opened files (when workspace is loaded): n/a
QUIZ QUESTION: :
在 2008 年的数据集中查找以下每一项的正确计数
ANSWER CHOICES:
特征 |
计数 |
---|---|
18 |
|
4 |
|
26 |
|
25 |
|
1 |
|
1611 |
|
2404 |
|
199 |
|
3889 |
SOLUTION:
特征 |
计数 |
---|---|
18 |
|
25 |
|
2404 |
|
199 |
QUIZ QUESTION: :
在 2018 年的数据集中查找以下每一项的正确计数
ANSWER CHOICES:
特征 |
计数 |
---|---|
1611 |
|
2 |
|
2404 |
|
32 |
|
15 |
|
18 |
|
0 |
SOLUTION:
特征 |
计数 |
---|---|
1611 |
|
2 |
|
18 |
|
0 |
QUIZ QUESTION: :
将每个特征和数据类型相匹配(其中一些可能不理想)
ANSWER CHOICES:
特征 |
数据类型 |
---|---|
布尔型变量 |
|
字符串 |
|
布尔型变量 |
|
字符串 |
|
整型 |
|
浮点型 |
|
浮点型 |
|
整型 |
|
字符串 |
SOLUTION:
特征 |
数据类型 |
---|---|
字符串 |
|
字符串 |
|
字符串 |
|
字符串 |
|
字符串 |
|
字符串 |
|
整型 |
|
浮点型 |
|
浮点型 |
|
整型 |
|
字符串 |
|
字符串 |
|
字符串 |
QUIZ QUESTION: :
匹配以下每个特征的非空唯一值的数量:
ANSWER CHOICES:
特征 |
唯一值 |
---|---|
3 |
|
2 |
|
1 |
|
5 |
|
42 |
|
14 |
|
3 |
|
18 |
|
2 |
SOLUTION:
特征 |
唯一值 |
---|---|
3 |
|
3 |
|
2 |
|
2 |
|
14 |
|
3 |
|
3 |
|
2 |
|
2 |
SOLUTION:
- 数据类型
- 格式
- 唯一值的数量
QUIZ QUESTION: :
这些燃料类型中的每一个存在于哪里?
ANSWER CHOICES:
燃料类型 |
数据集 |
---|---|
两者都有 |
|
2018 |
|
两者都不 |
|
两者都有 |
|
2008 |
|
两者都有 |
|
2008 |
|
2018 |
SOLUTION:
燃料类型 |
数据集 |
---|---|
两者都有 |
|
两者都有 |
|
2018 |
|
2018 |
|
两者都有 |
|
两者都有 |
|
2008 |
|
两者都有 |
|
两者都有 |
|
2008 |
|
2018 |
|
2018 |